HHT 


s c C— ChinaXiv 合作 A 
第 37 卷 第 5 期 计算 机 应 用 研究 4j is 
录用 定稿 Application Research of Computers Accepted Paper 


融合 内 容 与 矩阵 分 解 的 混合 推荐 算法 
EKE, BREH 
(辽宁 工程 技术 大 学 软件 学 院 , 辽宁 HPA 125105) 


摘 要 : 传统 的 基于 内 容 的 推荐 算法 往往 具有 较 低 的 准确 性 ， 而 协同 过 滤 推 荐 算法 中 普遍 存在 数据 稀缺 性 和 项 目 冷 

， 。 为 解决 上 述 问 题 ， 提 出 了 一 种 add odo 分 解 技术 的 混合 推荐 算法 。 该 算法 实现 了 在 共同 的 低 
空间 中 分 解 内 容 和 协同 短 阵 ， 同时 保留 数据 的 局 部 结构 。 在 参数 优化 方面 利 on 
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提高 了 推荐 准确 性 

关键 词 : 混合 推荐 : 矩阵 分 解 ; 冷 启动 ; 参数 优化 ; 局 部 结构 
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Hybrid recommendation algorithm based on content and matrix factorization 


Wang Yonggui, Chen Yuwei' 
(College of Sofiware, Liaoning Technical University, Huludao Liaoning 125105, China) 


Abstract: Traditional content-based recommendation algorithms have lower accuracy, while data sparseness and cold start 
problems are common in collaborative filtering recommendation algorithms. To solve this problem, this paper proposed a 
hybrid recommendation algorithm based on content and collaborative matrix factorization technique. The algorithm realized 
the decomposition of content and collaborative matrix in a common low-dimensional space while preserving the local data 
structure. This paper used an iterative method based on multiplication update rules in parameter optimization, improved 
learning ability. The experimental results show that the proposed algorithm is superior to other representative projects cold 
start recommendation algorithm, which effectively alleviates the data sparseness and improves the efficiency of the 
algorithm. 
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0 as 为 解决 上 述 问 题 ， 本 文 将 基于 内 容 的 推荐 算法 与 矩阵 分 
3i 解 结合 , 提出 了 一 种 混合 推荐 算法 。 其 主要 贡献 可 概括 如 下 : 

随 着 大 数据 时 代 的 到 来 ， 如 何 更 好 地 处 理 运用 好 用 户 尼 a) 将 内 容 与 协同 信息 结合 在 统一 的 矩阵 分 解 框 架 中 ， 同 

言 息 数 据 ， 解 决 信息 过 载 现 象 ， 已 经 成 为 互联 网 领域 重要 的 时 利用 数据 的 局 部 结构 ， 通 过 最 近邻 居 形 成 的 权重 矩阵 测量 

课题 之 一 。 于 是 个 性 化 推荐 系统 应 运 而 生 趾 。 目 前 推荐 算法 低 维 表示 的 局 部 平滑 度 。 

m 己 得 到 非常 广泛 的 应 用 ， 如 亚马逊 、 淘 宝 、 网 易 云 音乐 等 都 b) 利 用 一 种 基于 乘法 更 新 规则 的 学 习 模 型 进行 参数 学 习 ， 

了 强大 的 推荐 系统 ， 因 其 能 根据 海量 的 用 户 历 史 信 息 进行 同时 施加 非 负 性 约束 ， 引 入 正则 化 ， 优 化 了 目标 函数 ， 减 少 

筛选 过 滤 ， 挖 掘 出 深层 次 的 用 户 与 用 户 或 项 目 之 间 的 关系 ， 了 运行 时 间 。 

产生 较为 准确 的 具有 偏好 特性 的 个 性 化 推荐 ， 可 以 更 好 地 满 c) 在 nipsl2raw_ str602 公开 数据 集 上 进行 了 大 量 的 实验 ， 

足 用 户 需 求 ， 深 受用 户 喜爱 。 证 明了 本 文 算法 优 于 其 他 几 种 项 目 冷 启动 推荐 算法 ， 提 高 了 
推荐 算法 主要 可 以 分 为 基于 内 容 的 推荐 中、 协同 过 滤 推 推荐 准确 率 ， 有 效 解 决 了 项 目 冷 启动 问题 。 

荐 中 以 及 混合 推荐 算法 外 。 基 于 内 容 的 推荐 算法 通过 抽取 项 


目 属性 进行 特征 学 习 ， 根 据 计 算出 的 项 目 相 似 度 向 用 1 ”相关 工作 

相似 度 值 较 大 的 项 目 。 协 同 过 滤 算 法 是 目前 应 用 研究 最 为 广 混合 推荐 算法 的 主要 手段 是 综合 利用 基于 内 容 的 推荐 
泛 的 算法 ， 主 要 可 分 为 基于 用 户 的 协同 过 滤 推 荐 和 基于 项 目 法 和 协同 过 滤 推 荐 算法 的 优点 ， 并 避免 各 自 的 不 足 之 处 ， 
的 协同 过 滤 推 荐 ， 两 者 的 核心 在 于 通过 用 户 一 项 目 评分 矩阵 ” 以 有 效 绥 解 冷 启动 问题 ， 实 现 多 样 性 ， 但 往往 会 出 现 复 杂 有 
计算 出 用 户 或 项 目 之 间 的 相似 度 并 进行 推荐 。 但 在 现实 应 用 ”过 高 、 推 荐 时 间 增 长 、 不 易 实 现 平衡 等 问题 。 常 见 的 混合 
中 ， 只 有 一 小 部 分 用 户 会 对 少 部 分 项 目 评分 或 评论 ， 因 此 协 ” 荐 算法 主要 可 以 分 为 加 权 型 中 合并 型 中 和 特征 组 合 外 等 几 利 
同 过 滤 技 术 存在 明显 的 数据 稀 玻 问 题 和 项 目 冷 启动 问题 回 。 类 型 。 加 权 型 混合 推荐 是 将 多 种 推荐 计算 结果 加 权 后 输出 最 
冷 启动 问题 主要 可 分 为 用 户 冷 启动 和 物品 冷 启动 ， 即 如 何 为 。” 终 推 荐 结果 。 合 并 型 混合 推荐 利用 多 种 推荐 算法 产生 多 种 推 
新 用 户 推荐 物品 ， 或 如 何 为 用 户 推荐 新 物品 。 基 于 内 容 的 方 茬 结果。 特征 组 合 混合 推荐 则 是 将 不 同 推荐 数据 源 的 特征 结 
法 虽然 可 以 缓解 冷 启动 问题 ， 但 是 自身 的 推荐 准确 率 较 低 ， 合 起 来 产生 推荐 。 下 面 简要 介绍 几 种 相关 的 推荐 算法 。 

很 少 成 为 唯一 选择 。 Soboroff 等 人 外 提出 了 一 种 基于 潜在 语义 索引 的 技术 ， 
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EKR, F: 融合 内 容 与 矩阵 分 解 的 混合 推荐 算法 


交 早 结合 协同 过 滤 和 文档 内 容 进行 文本 推荐 的 混合 推荐 算 


法 。 该 方法 通过 为 每 个 用 户 构 建 内 容 配 置 文件 来 发 现 集合 中 
页 ， 然 后 将 与 用 户 配置 文件 最 相似 的 文档 推荐 给 用 户 。 
10 提 出 了 协同 矩阵 分 解 的 方法 ， 是 多 关系 分 解 书 
型 的 一 个 通用 框架 ， 解 决 了 项 目 推荐 和 评分 预测 问题 。 
Gantner 等 人 (1 使 用 KNN (K-nearest-neighbor ) 和 BPR 
(Bayesian personalized ranking) 优化 学 习 项 目 或 用 户 与 潜在 
to Wang 等 人 0 提出 一 个 混合 推荐 框架 ， 利 用 


操作 记录 和 用 户 特征 将 用 户 分 类 ， 然 后 根据 分 


E 荐 算法 。Ahn03 引 入 了 一 种 混合 相似 度 计 算 方 


E 化 信息 ， 缓 和 了 冷 启 动 问题 ， 但 算法 实现 复 


杂 度 过 高 .Rosen-Zvi 等 人 04, 提 出 了 一 种 生成 概率 模型 ATM 
Cauthor-topic model), 将 每 个 作者 与 相关 主题 的 多 项 分 布 关 


联 ， 每 个 主题 都 具有 关于 词汇 的 多 项 分 布 。 在 新 闻 推 荐 中 ， 
lE 模 为 作者 。Felfernig 等 人 05 提 出 了 将 高 维 评分 矩阵 


E 和 矩阵， 利用 用 户 的 隐 性 数据 和 社交 信息 进行 


E 荐 准确 度 ， 但 存在 部 分 信息 丢失 的 问题 。Cai 


了 数据 局 部 几何 结构 更 好 地 进行 低 维 表示 。 该 算 


习 的 标签 传播 启发 ， 提 出 了 一 种 施加 约束 的 聚 类 


区 得 了 较 好 的 效果 。 
以 上 算法 融入 了 不 同 的 因素 , 均 有 效 缓解 了 冷 启动 问题 ， 
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复杂 度 过 高 、 信 息 缺 失 等 问题 。 本 文 算法 融入 了 上 述 
ti 点 ， 同 时 避免 了 信息 缺失 问题 ， 利 用 了 和 矩阵 
E BITE, Jf 
于 乘法 更 新 规则 的 方法 优化 参数 ， 有 效 解决 了 冷 启动 问题 ， 
EHTE o 


融合 内 容 和 矩阵 分 解 的 混合 推荐 算法 


pt 


F 


施加 非 负 性 约束 来 加 强 效应 ， 采 用 


Bu 


D H AERE XURUT P ERE Xv. 利用 参数 矩阵 W 


Hr 和 Hv 对 两 者 进行 协同 分 解 ， 加 入 局 部 特性 对 分 解 后 的 数 


JP BRZE 


ERIR. XFA 


min:Z =æ || X; -WH, 
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x 描述 ， 本 文 将 Xi/ 和 Xr 分 解 后 在 共同 
EFE 和 Xr 和 Xu， 定义 如 下 的 优化 


&*(1-a)]| Xo -WH lf 


FAQIW I2 ILE + HI) (D 


两 项 是 通过 使 用 后 
HERE Xr MIH ERE Xu 


= 


项 为 由 超 参数 4 


则 化 项 , 用 来 防止 过 拟 


st.W >0,H >0,H,>0 


ERE 夯实 现在 同一 潜在 空间 下 
的 分 解 ， 其 中 的 符号 表示 和 矩阵 
内 F- 范 数 ， 运 算 后 可 实现 对 XL Xu 的 降 维 表示 。 其 中 超 参 
z AERE fER EERE, 控制 在 [0,1] 内 。 若 a 0.5, 
分 解 同等 重要 ; 车 a<0.5， 则 表明 用 户 和 矩阵 Xu 
重要 ; 若 a>0.5， 则 表明 项 目 内 容 和 矩阵 XY 的 分 解 更 
三 0 控制 的 关于 参数 矩阵 W. Hi 
合 , 衡量 函数 光滑 的 程度 。 


表 1 项 mix 
Table 1 Item-attribute 
属性 
ATTR: ATTR» see ATTRm 
Ru Rin 
Ra Ron 
Rui Rom 
表 2 项 户 表 
Table 2  Item-user 
p 
Useri User? E User 
Ru Ru 
Ra Ru 
Ru Rus 


E. EX HAEC a, B. ATESIBIULES H ERE 


种 参数 学 习 算 法 ， 使 参数 矩阵 W, Hr P Hv 在 优 


TV 


目标 函数 的 背景 下 进行 迭代 学 习 ， 最 终 达到 一 个 平稳 点 ， 


冷 启动 问题 ， 应 向 潜在 感 兴趣 的 用 户 推荐 新 


chinaX 


J 
， 即 至 今 没 表 达 出 兴趣 但 可 能 感 兴趣 的 项 目 。 根 据 用 户 
感 


1 项 目的 描述 ， 检 索 出 最 有 可 能 对 此 新 项 目 感 兴 


以 将 此 问题 定义 如 下 : 对 于 一 个 具有 nn 个 
的 集合 ， 存 储 在 矩阵 Xie m" 中 的 m 表示 项 目 属性 个 数 ， 
E 阵 的 一 行 表 示 一 个 项 目 ， 和 矩阵 的 一 列表 示 一 个 项 目 属 性 ， 
1; 存储 在 矩阵 Xv € R” pH u 表示 用 户 数量 ， 其 中 


局 部 结构 的 特性 与 衡量 


维 数 的 数据 进行 处 到 
人 对 引入 流 型 假设 ， 
据点 Xi 和 Xi 在 原 
也 应 该 彼此 接近 ,这 在 降 多 


当 进行 协同 分 解 时 ， 应 找到 一 个 共同 的 低 维 空间 对 不 同 
E 优 化 ， 如 式 (1) 所 示 。 在 考虑 局 部 结构 


这 种 假设 主要 考虑 模型 的 局 部 特性 ， 如 果 
可 中 距离 接近 , 那么 在 低 维 
ED7 和 半 监 督学 习 0al 中 有 


有 分 布 几 


理论 在 分 布 的 几何 结构 未 知 的 情况 下 不 能 


limi 
[und 


个 单元 (i, D 表示 用 户 j 是 否 对 项 目 i 有 兴趣 ， 见 表 2。 


基于 以 上 定义 ， 每 个 项 目 及 对 应 的 描述 与 所 消费 的 


有 闻 。 每 篇 新 闻 都 由 词汇 和 产生 评论 的 用 户 
" 


述 。 这 种 情况 可 以 用 两 个 矩阵 表示 出 来 ， 其 中 一 个 矩阵 
HH HABER XER”, n 为 文档 数目 , v 表示 词汇 量 ; 另 一 个 
为 用 户 和 矩阵 XER", n 为 文档 数目 ，u 表示 用 户 
E 7 可 以 用 来 表示 文档 中 词汇 的 TF-IDF 分 数 ， 
阵 Xv 用 来 反映 相关 用 户 是 否 对 当前 文档 产生 评论 。 


E 题 的 程度 ， 同 样 的 ， 将 Xv 分 解 可 以 发 现 用 户 社 
区 内 引发 兴趣 的 程度 。 这 样 分 解 的 问题 在 于 没 


解 成 两 个 低 维 矩阵 可 以 发 现 文档 主题 以 及 每 个 


户 在 共同 的 潜在 空间 表现 出 来 ， 每 个 分 解 表示 


空间 ， 无 法 将 主题 与 社区 联系 起 来 。 为 使 文档 和 


间 表 示 出 来 ,使 每 个 项 目 既 能 用 一 个 主题 描述 ， 


而 根据 流 形 学习 09 的 研究 ,局 部 几何 结构 可 以 通 
习 的 方式 来 建 模 。 


Va 


HU n 个 节点 ， 每 个 节点 表示 一 个 数据 点 ， 


些 连接 边 进 行 描述 , 可 以 采 
所 表示 方法 ， 则 


式 ， 则 可 以 用 余弦 相似 度 值 描述 。 本 文采 用 


以 度 值 进行 加 权 表 示 ， 并 构成 邻接 矩阵 4， 以 此 来 测 


数据 点 之 间 的 局 部 紧密 度 。 
则 xi 与 鸭 之 间 的 余弦 相 


Sim(x ,x )= 
i 


le " " 
s=7 2 lo -o; Il 4 = oOo Di; - M (oro;)4 
"m ia ij 


到 每 个 点 拥有 的 g 个 最 近邻 居 ， 并 将 这 些 点 连接 起 来 。 对 
用 二 进 制 和 加 权 两 种 表示 方法 。 
描述 成 最 近邻 居 为 1， 其 余 为 0; 


iN 
iu 这 


E xS Ox yi) xj x, 

以 度 计 算 如 下 : 

Lo PY 0 

Taty aty e 
JAE EE 丈 协 同 分 解 后 , 每 个 数据 点 xi 被 低 维 映射 成 了 


氏 维 数据 点 间 的 距离 是 通过 计算 欧 几 里 德 距离 ， 
即 | wi wje AHRR EEE A 可 以 测量 低 维 表示 的 局 部 
平滑 度 。 给 定 损 失 函 数 如 下 : 


G) 


=Tr(WDW )  Tr(W'AW )=Tr (WLW ) 


王 永 贵 ， 等 : 


其 中 : D 为 对 角 和 矩阵 ;其 对 角 值 为 4 中 每 行 元 素 的 和 ; Di 地 
Xi4g. Tr 表示 和 矩阵 的 迹 ; L 为 拉 普 拉 斯 矩阵 P。 

为 了 融入 这 种 局 部 特性 ， 针 对 式 (1) 进行 优化 ， 加 入 参 
数 8 来 控制 局 部 性 的 执行 程度 。 优 化 后 的 目标 函数 如 下 : 


min:Z -a || X: -WH, ||g-(1-a)]| X -WH ||2+ 
BTrW" LW ) - A(IW I+] Æ l2 FH, Hl?) (4) 
st.W 20, Hi 20, H, 20 


其 中 : a 控制 入 和 Xv 分解 的 重要 程度 4 控制 正 则 化 ， 防 
止 过 拟 合 ; LAR G) 中 的 拉 普 拉 斯 矩阵 。 
2.3 ”基于 乘法 更 新 的 参数 学 习 算法 

上 述 目 标 函 数 是 想 通过 迭代 来 寻找 最 小 值 ， 但 由 于 参数 
W., Hi, Hv EGK, PEARSE eode] MB AE TE DRE. 7g 
此 推导 出 一 种 基于 乘法 更 新 规则 的 迭代 算法 , 进行 参数 学 习 ， 
可 以 实现 一 个 平稳 点 。 首 先 求 出 关于 W Hn Hv 的 偏 导 数 ， 
如 式 (5) ~ CD 所 示 。 
VwZ= aWH,H, -aX,H; +(1-a)WH,H," - 


(1- a) XH," + BLW «AW 6) 

Vu,Z - aW! WH, - oW! X, «AH, (6) 

Va,Z 2 (1-3)W'WH, -(1-a)W" X, - AH, (7) 

然后 再 利用 KKT Ckarush-kuhn-tucker) — Br ig (o! 2 2H, 
可 以 推导 出 如 下 结论 : 

Wz0.H,20H,z0 (8) 

VyZz0V&g Z20Vg Z20 (9) 


WoVyZ-0H, oVg,Z-0H, oV4,Z2-0 (10) 


其 中 : o 为 矩阵 乘法 运算 符 。 再 将 式 C50 ~ CD) 分 别 带 入 
式 〈10) 中 的 三 个 结论 ， 可 以 得 到 参数 W. Hi. Hv 的 更 新 
规则 : 


[wzZE7 +1-Q)XoHY - BAW] 


W&W 
: Ofawm Hr +( -QWHoHY +PDW -2W] ap 
[aw"x,] 
H, <H 
din 9tawrwa, *-AH,] (12) 


i [(1-a)w*x, | i 
[(I-a)w WH, «n, | 


ETER, W Hn Hu 通过 迭代 可 以 达到 学 习 的 效果 ， 
最 终 实现 一 个 平稳 点 。 目 标 函 数 Z 在 W. Hi. Hu 处 于 稳定 
点 时 的 更 新 规则 下 是 不 变 的 。 本 文 又 考虑 到 项 目 矩 阵 XR FH 
PIERE Xv 的 样本 个 数 ， 将 样本 数 的 影响 加 入 目标 函数 形成 


H,« H,O 


; a (l-a) 
min:Z = | X: -WH, lg l| Xo -WH; |£ 
lg(v) lg(v:) (14) 
*BTr(WTLW)- AW Ig +H |£ +I Æ lg) 
st.W 20, H, 20, H, 20 
其 中 :vi 表示 项 目 数 ， v 表示 用 户 数 。 该 优化 目标 函数 能 减 
少 迭 代 次 数 , 有 效 减少 运行 时 间 。 一 旦 模型 训练 学 习 W. Hr. 


Hvu， 这 些 参数 就 具有 了 预测 作用 。 例 如 给 定 一 篇 新 的 新 闻 
章 描述 词 就 可 以 预测 最 有 可 能 评论 这 篇 文章 的 用 户 q;。 通 
使 用 最 小 二 乘法 PC 求解 出 qi= wHi:， 然 后 将 文档 向 量 qi 
到 公共 潜在 空间 。 不 断 更 新 的 w 会 在 潜在 空间 中 捕获 到 qi 
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3 ”实验 结果 与 分 析 


3.1 实验 环境 

本 文 实验 采用 的 硬件 环境 : AMD A8-5545M APU 四 核 ， 
EH 1.70 GHz, 内 存 4 GB, 硬盘 750 GB; 操作 系统 : Windows7 
操作 系统 ; 编程 环境 : MATLAB R2016a, Microsoft VC + + 
2015. 
3.2 数据 集 描 述 

实验 采用 的 是 nipsl2raw_str602 公开 数据 集 ， 可 以 在 
https://cs.nyu.edu/~roweis/data.html 找到 。 该 数据 集 为 稀 玻 妆 
据 集 ， 对 文章 内 容 进行 了 预 处理 ， 去 除 停 用 词 、 数 字 、 标 点 
以 及 不 常用 标记 ， 包 含 2 037 篇 文章 和 用 户 名 、13 649 个 描 
述 词汇 以 及 1 740 个 标题 。 
3.3 实验 设置 
3.3.1 实验 方法 

按时 间 顺 序 对 数据 集 进行 排序 ， 并 通过 移动 时 间 窗 生成 
训练 集 和 测试 集 ， 其 中 还 将 测试 集 限制 为 至 少 评论 过 一 次 文 
章 的 用 户 。 然 后 采用 折 交 又 验 证 33， 将 数据 集 平分 成 10 
组 ， 每 次 选取 其 中 一 组 数据 作为 测试 集 ， 剩 余 组 数据 作为 训 
练 集 。 每 个 实验 进行 10 次 ， 取 平均 值 作 为 最 终 的 实验 结果 ， 
并 与 其 他 算法 比较 分 析 。 
3.3.2 评价 指标 
推荐 系统 常用 的 性 能 评价 指标 有 准确 率 (precision)、 召 
a% (recall)、 平 均 绝对 误差 (mean absolute error, MAE) 
和 均 方 根 误 差 (root mean square error; RMSE) 等 fe。 但 这 
些 都 属于 准确 性 指标 ， 有 不 适合 评估 排序 性 能 的 局 限 性 。 
本 实验 采用 的 评价 指标 为 均值 平均 精度 (mean average 
precision ，MAP) 和 归 一 化 折 损 累计 增益 (normalized 
discounted cumulative gain, NDCG) 251。 两 者 都 考虑 到 了 位 
置 因素 对 实验 结果 的 影响 ,MAP 较 好 地 平衡 了 准确 率 和 召 蕊 
率 ， 排 名 越 靠 前 MAP 值 就 越 高 ，NDCG 可 以 评估 整个 测试 
集中 的 用 户 和 推荐 列表 ， 进 行 归 一 化 处 理 。 上 述 两 个 指标 的 


相关 定义 如 下 : 
a) MAP 的 具体 定义 见 式 〈1$) C160. 所 示 。 
1 € r 
mex ^3 position (r) (15) 
MAP - V2 AP(q) 
x (16) 
其 中 : AP 表示 平均 准确 率 Caverage precision; AP); Rc 


示 文 档 个 数 ，position (r) 是 第 r 篇 文档 在 列表 中 的 位 置 ，0 
表示 求 出 的 AP 值 总 数 。 

b) NDCG 是 用 IDCG 进行 归 一 化 处 理 ， 表 示 
DCG(discounted cumulative gain) 与 IDCG (ideal discounted 
cumulative gain) 差 的 距离 。 相 关 定 义 如 下 : 


p 2reli 1 
DCG, = 
i ug (17) 
[REL] Arel; 
2rei 一 1 
IDCG, = 
二 log; G1) (18) 
DCG 
NDCG, = 2 
z IDCG, (19) 


X (17) 是 一 种 增加 相关 度 影 响 比 重 的 DCG,， 表示 前 p 
个 位 置 的 文档 产生 的 效益 , 其 中 reli 表 示 第 i 个 文档 的 相关 度 
等 级 。IDCG 意 为 理想 状态 下 的 DCG 最 大 值 。 | REL | 表示 


oy 


并 计算 出 wE,， 即 用 户 评论 新 文章 的 可 能 性 gu， 从 而 根据 
些 可 能 性 评分 对 这 些 用 户 进行 排名 。 


前 p 个 文档 的 相关 性 大 小 排序 。 
3.4 实验 结果 与 分 析 
实验 将 本 文 算 法 的 两 种 模型 与 其 他 四 种 推荐 算法 进行 性 
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CMF (8=0)， 本 文 两 种 模型 一 直 优 于 被 对 比 算法 。 


能 比较 。 本 文 的 两 种 模型 为 CMF 和 未 构建 最 近邻 图 的 CMF, 


实验 从 算法 


1) 算法 平均 性 能 对 比 


X 


平均 性 能 、 洪 在 主题 数量 的 影响 、 内 容 对 


即 CMF( B=0)。 用 来 比较 的 四 种 算法 分 别 为 较为 经 典 的 混 
合 推荐 算法 UP-LSIPI, 解决 冷 启动 的 
生成 概率 模型 推荐 算法 ATM049 和 
SGHR (semi-genetic hybrid recommendation) R51， 采用 遗传 
算法 与 权重 相 结 合 的 方式 提高 推荐 性 能 。 


E 荐 算法 BPR-KNNU!, 
种 较 新 的 混合 推荐 算法 


的 权重 a 的 影响 、 控 制 解 的 平滑 度 参数 4 的 影响 、 
因数 g 的 影响 以 及 运行 时 间 上 对 算法 进行 对 比 评 


&] 1 显示 的 是 本 文 算法 的 两 个 模型 CMF H CMF, 6=0) 


的 参数 调 至 最 佳 时 ,在 10 个 不 同 训练 集 和 测试 集 下 取得 的 平 


均 性 能 。 可 以 看 
于 另外 四 


本 文 的 两 个 模型 在 两 个 评价 指标 上 都 明显 
种 冷 启动 算法 ，MAP 值 提升 了 了 15% 左右 , NDCG 
值 提升 了 5%~10%， 并 且 模 型 CMF 优 于 模型 CMF (C £20), 


了 本 文 算法 有 效 提升 了 1 
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结论 ， 本 实验 设置 
图 3 所 示 。 


F 衡 上 述 问 题 。 


下 滑 明 显 ，NDCG 值 低 于 被 对 比 算法 ， 当 800 时 模 图 5 显示 了 不 
CMF ( 6=0) 5 CMF 差距 明显 。 但 本 文 算 法 总 体 性 能 要 较 好 的 虱 
其 他 四 种 算法 。 现 不 佳 。 


0.7 
BPR-KNN SGHR 
0.6| c. Nx 
8 0.5r 
S 04r 
E 0.3} 
5 0.2} 
[1n 
0.1} 
e MAP NDCG 
图 1 平均 性 能 比较 
Fig. 1 Average performance comparison 
2) 潜在 主题 数量 的 影响 
主题 数量 上 控制 着 模型 的 复杂 度 ， 若 上 值 太 小 ， 即 模型 
于 简单 ， 若 大 值 过 大 ， 会 产生 数据 拟 合 ， 并 且 性 能 上 会 受 
I 较 大 影响 ， 导 致 性 能 较 差 。 因 此 需 找 到 合适 的 主题 数量 来 


本 文 算法 将 控制 在 100~1000。 不 同 k 值 时 


NDCG 如 图 2 所 示 。 通 过 图 2 表明 ， 主 题 数量 在 400~700 
性 能 较 稳 定 ， 当 k=600 时 基本 达到 最 佳 性 能 ， 但 当 k>700 


4) 解 的 平滑 度 的 影响 


0.8 
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07 一 一 ATM 一 一 CMF 
zn ——UP-LS| | —— SGHR 


0.6r 
I——————— 
0.4 1 


0. 1 1L 1 n 1 r " 
$4 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 


NDCG 


ChinaXiv 合 作 期 刊 
第 37 卷 第 5 期 


a 
图 3 不 同 a 值 时 的 NDCG 
Fig.3 NDCG at different a values 


参数 和 通过 调整 正则 化 项 来 控制 解 的 平滑 度 。 实 验 将 k 


5) 


局 部 平滑 度 的 影响 


HEN 600, 将 a 设 定 为 0.2， 将 控制 局 部 平滑 度 的 参数 5 设 
置 为 0.25， 同 时 控制 A € (0,1)。 不 同 入 值 时 的 NDCG 如 图 
4 所 示 。 由 图 4 可 以 得 出 ， 当 A e[0.15,0.35] 时 可 取得 稳定 高 
E 能 ，CMF 性 能 略 高 于 CMF (8B =0)， 同 时 两 者 远 高 于 被 对 
比 算法 ; 但 当 4>0.5 时 性 能 较 差 ， 低 于 其 他 四 种 算法 。 


T T 


0.7. 一 一 BPR-KNN 一 一 CMF(B=0) 


—— ATM 
——UP-LSI 


= CMF 


一 一 SGHR 


0.1020.304 0.506 0.7 08 09 10 


4 
图 4 不 同和 值 时 的 NDCG 
Fig.4  NDCG at different X values 


CMF 模型 通过 构建 最 近邻 图 形成 的 邻接 权重 矩阵 4 可 


计算 局 妆 


平滑 度 ， 而 参数 B 控制 着 局 部 平滑 度 的 重要 程度 。 


0.7 


L! 一 一 BPR-KNN 一 一 CMF(B=0) 


0.31 L aTM 一 一 CMF l 
MESURES. 
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图 2 不 同 k 值 时 的 NDCG 


Fig.2 NDCG at different k values 


3) 内 容 对 协 


同 信息 的 影响 


| 着 内 容 对 协同 信息 的 重要 程度 根据 实验 (2) 


潜在 主题 数量 K-600 来 观察 a 的 影响 。 其 


同 分 解 时 Xu EEZ, 25 o=0.2 时 CMF 达到 
EHE. HÆ a 变化 的 整个 过 程 中 ，CME 整体 性 能 优 于 


本 文 两 种 模型 在 ae[0.1,0.5] 时 性 能 较 高 较 


6) 最 近邻 居 数 的 影响 


司 8 值 下 的 算法 性 能 。 当 PE[0.10.9] 时 表现 出 
日 在 £-0.2 时 NDCG 值 最 高 ; 24 21 时 性 能 
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因此 本 实验 将 8 控制 在 [0,1] 内 。 
0.70 


|——CMF| | 
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图 5 不 同 B 值 时 的 NDCG 
Fig. 5 NDCG at different p values 


本 文 算法 的 CMF 模型 通过 构建 最 近邻 图 来 计算 文档 之 


间 的 相似 度 ， 而 CMF ( 86=0) 模型 并 没 采 
实验 只 针对 CMF 模型 进行 了 最 近邻 居 数 影响 的 研究 , 如 图 6 
所 示 。 可 以 看 


Lob. 。 > 
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上 用 ; H 


这 种 方式 ， 因 此 


上 ， 当 最 近邻 居 数 在 1~4 个 时 ， 可 以 保持 较 高 


最 近邻 个 数 大 于 5 时 , 则 表现 出 较 差 的 推荐 准确 性 。 
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图 6 不 同 最 近邻 个 数 的 NDCG 
Fig. 6 NDCG at different nearest neighbors 
7) 算法 运行 时 间 
将 参数 分 别 设 置 为 a=0.3，4=0.25，p=0.25。 测 试 本 文 
两 种 模型 在 不 同 模型 复杂 度 下 的 运行 时 间 ， 在 不 同 的 上 值 下 
每 个 模型 运行 10 次 后 取 平 均值 ,实验 结果 见 图 7. 可 见 人 300 
时 CMF 具有 明显 的 优势 ， 运 行 时 间 较 CMF (8-00 减少 很 
多 ; 在 k-800 时 时 间 相 差 了 2 100 s 之 多 , 可 以 得 出 加 入 最 近 
邻 加 权 和 局 部 平滑 度 后 的 CMF 模型 可 以 有 效 减少 运行 时 间 ; 
当 4800 时 由 于 实验 性 能 较 差 ， 且 运行 时 间 较 长 ， 故 不 作 考 
I. 
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图 7 不 同 K 值 下 的 运行 时 间 


Fig.7 Run time at different k values 
4 ”结束 语 


本 文 提 出 了 内 容 与 协同 信息 相 结 合 的 混合 推荐 算法 。 将 
内 容 与 协同 矩阵 在 共同 的 空间 中 分 解 ， 得 到 项 目 主题 和 主题 

E 阵 ， 同 时 考虑 到 局 部 结构 ， 通 过 构建 最 近邻 图 的 方式 
计算 用 户 间 的 偏好 相似 性 ， 形 成 权重 邻接 矩阵 ， 用 来 测量 局 
部 平滑 度 ， 施 加 了 非 负 性 约束 ， 导 致 可 解释 和 稀 玻 的 潜在 表 


H 


利用 基于 乘法 更 新 规则 进行 参数 学 习 ， 优 化 目标 函数 ， 
找到 性 能 稳定 点 。 在 评价 指标 上 ， 使 用 了 MAP 和 NDCG， 
融入 了 位 置 因素 ， 增 加 了 相关 度 比重 ， 可 以 更 好 地 评估 排序 
性 能 。 本 文 算法 进行 了 多 次 实验 后 与 冷 启动 算法 对 比 评估 ， 
结果 显示 本 文 算法 显著 优 于 对 比 算法 ， 有 效 缓解 了 冷 启动 问 
题 , 提高 了 推荐 准确 性 。 并 且 通 过 本 文 两 种 模型 之 间 的 对 比 ， 
证 明了 引入 局 部 结构 的 有 效 怕 

本 文 提出 的 融合 内 容 和 甜 阵 分 解 的 算法 虽然 在 该 数据 集 
上 表现 出 较 好 的 性 能 ， 但 是 否 能 支撑 大 规模 数据 集 还 有 待 研 
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究 。 并 且 在 今后 的 研究 中 ， 可 以 考虑 加 入 更 多 的 项 目 属性 ， 
如 年 龄 、 性 别 等 属性 ， 可 以 帮助 提高 用 户 的 偏好 相似 性 ， 从 


而 提高 推荐 准确 性 。 
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